Alteryx 2020.2 新機能:閲覧ツールでのデータプロファイリングをもっと便利にする5つのアップデートが登場!
データアナリティクス事業本部プロダクト営業部の営業じゃない方・新納(にいの)です。
2020/6/3にAlteryxの最新バージョン2020.2がリリースされました。
本エントリでは2020.2でより強化された、閲覧ツール(Browse tool)のデータプロファイリング機能についてご紹介します。
データプロファイリングとは
データプロファイリングとは、データの内容や構造を知ることです。Alteryx Designerではフィールドサマリーツールで以下情報が取得可能です。
- データタイプ
- 最大値、最小値
- 平均値
- 中央値
- 標準偏差
- 欠損値の割合
- ユニークな値の数
データ分析の前に知っておきたいこれらの情報を、バージョン2020.2からは閲覧ツールでも手軽に確認できるようになりました。
リリースされた閲覧ツールの新機能
Tableauのサンプルデータでおなじみのサンプル - スーパーストア.xlsをAlteryx Designerに読み込みました。このデータを使い、閲覧ツールでの強化されたデータプロファイリングを確認していきましょう。
全体表示ビューで各カラムの上位値を表示(データプロファイリングビューと上位値ビューはトグルスイッチで表示切替)
パッと見て前バージョンとの違いが分かる部分だと思います。カラムごとに上位値データを確認できる上位値ビューが利用可能になりました。
データプロファイリングチャートと上位値ビューは右上のトグルスイッチをクリックすることで表示切替が可能です。
全ての行でデータが単一の場合「Only One value」と表示
カラムの中のデータがすべての行において単一の場合、データプロファイリンググラフで「Only one value」と表示されるようになりました。以下のケースでは、「国/領域」カラムには「日本」という値のみが格納されていることが一目で分かります。
全ての行でデータがユニークな場合「All values are unique」と表示
カラムの中のデータそれぞれの値がユニークである場合、データプロファイリンググラフで「All values are unique」と表示されるようになりました。以下のケースでは、「行ID」カラムのデータは全てユニークであることが一目で分かります。
数値や日時データの値の範囲を表示
データ型が数値型や日時型の場合、値の範囲が一目で分かるようになりました。以下の例では、「出荷日」カラムは2016/1/3~2020/1/7のレンジで値をとっており、「数量」カラムは1~14の値が存在していることが分かります。
上位値ビュー→「more」より最大1000個の上位値一覧を表示
上位値ビュー→「more」をクリックすると最大1000個の上位値を確認可能となりました。「出荷日」カラムの上位値下部にある「more」をクリックしてみます。
1000個の上位値が表示されました。
まとめ
バージョン2020.2でより便利になった閲覧ツール(Browse tool)のデータプロファイリング機能についてご紹介しました。フィールドサマリーツールでもデータプロファイリングは可能ですが、誰もがデータ確認のために使う閲覧ツールでサクッとデータ内容の確認が可能となったのはありがたいですね。ただし、閲覧ツールの使いすぎはワークフローの処理の重さに影響を及ぼすので、ワークフローの本番運用の際は削除やコンテナツールでの無効化をご検討ください。
参考資料
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。